在过去的十年中,我们看到了社交媒体平台推动的在线内容中的指数增长。该规模的数据生成具有难以克服的攻击内容的警告。通过多种方式(图像,语言等),代码混合语言等,通过使用识别冒犯内容的复杂性加剧了。此外,即使我们仔细采样和注释令人反感的内容,也将始终存在攻击性VS非冒犯内容的显着类别不平衡。在本文中,我们介绍了一种基于新的Code-Mixing指数(CMI)的焦点损失,其避免了两个挑战(1)代码混合语言(2)类别不平衡问题,用于Dravidian语言冒犯检测。我们还通过基于余弦的分类器更换传统的小点产品类分类器,这导致性能提升。此外,我们使用多语言模型,帮助传输特征在跨语言中学到的,以有效地使用低资源语言。同样重要的是要注意我们的模型处理混合脚本的实例(例如,说拉丁和Dravidian - 泰米尔脚本脚本的使用)也是如此。我们的模型可以在低资源,类别不平衡,多语言和代码混合设置中处理令人反感的语言检测。
translated by 谷歌翻译